#razonamiento largo

LongTraceRL: Razón de largo contexto con recompensas de rúbrica

LongTraceRL mejora el razonamiento en contexto largo usando recompensas de rúbrica y distractores por niveles desde trayectorias de agentes de búsqueda.

2026-06-01 · 1 min

La forma del exceso de pensamiento: ráfagas de retroceso en trazas largas de razonamiento

2026-05-29 · 1 min